這期數位時代的主題「Big Data 數字鍊金」,就描述得頗為傳神。
Big Data 的名稱由來,主要是因應各個領域資料的快速成長,除了儲存之外,更進一步的要分析資料、提取資訊、萃得知識,並且應用在決策輔助上,這也是一般商業資訊系統進入「智慧」階段的重要指標。
這些技術事實上已經存在多年,最古老的名稱叫做「統計學」(statistics),新潮一點的說法可能叫做「資料探勘」(data mining)、「知識發現」(knowledge discovery),或是「機器學習」(machine learning),這些新名詞當然不完全等同於傳統的統計學,也各自有專注的應用領域,但是基本上都是「收集、整理、分析與詮釋資料」的活動。
既然是資料的加工,當然是必要有資料才能進行。在過去,資料的收集需要付出相當高的代價,所以大部分的人即使有了資料也不見得會跟其他人分享,只有少數學術研究人員會在論文發表若干年之後,把資料公開給其他人使用。這類資料比較有名的集散地,早年大概要算是 UCI ML Repository,現在隨著網路盛行,以及「開放資料」(open data) 的新思潮,類似的公開資料庫也就越來越多了。
隨著世界逐漸的數位化跟電子化,資料的來源除了傳統的主動收集,也有很多自動生成的紀錄可以當做資料來源,例如今年資料探勘的盛事 KDD Cup 就是由中國的騰訊主辦,要參賽者從微博的自動記錄資料裡去尋找規則。而生產線、工作流程的電子化,也帶來了 process mining 這樣新的應用,利用分析自動記錄來確認流程的正確性,這在接下來即將成形的物聯網(internet of things)時代將會是熱門的技術。
當然,一個熱門話題的興起,也會同時帶來許多討論與反省,比方說巨量資料究竟能不能取代人類專家,或是根本只是個謊言而已?這個問題大概沒有答案,不過筆者過去的學經歷大多是圍繞著這個主題打轉的,自然私心希望這個領域接下來能有蓬勃的發展了。
沒有留言:
張貼留言